群体遗传专题 | 同源四倍体还可以这样装?“牧草之王”紫花苜蓿基因组首次破译
2020年5月19日,中国科学院昆明动物研究所、西北工业大学生态环境学院王文研究员,西北工业大学生态环境学院邱强教授和中国科学院西双版纳热带植物园陈江华研究员为通讯作者在Nature Communications上在线发表了题为“Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa”的研究论文。
由于缺乏参考基因组和有效的基因组编辑方案,人工改良苜蓿(Medicago sativa L.)(最重要的牧草作物之一)的性状定位具有挑战性,这主要是由于其同源四倍体和自交不亲和性造成的。这篇文章,作者通过整合高保真单分子测序和Hi-C数据,完成了由32条等位染色体组成的紫花苜蓿染色体水平基因组组装。作者在此基因组组装的基础上进一步建立了一个有效的基于CRISPR / Cas9的基因组编辑策略,并将四等位基因突变精准地引入到无效突变体,其具有明显表型变化。无效突变体的突变等位基因和表型可以通过异花传粉以无转基因的方式稳定地世代遗传,这可能有助于绕开关于转基因植物的争论。该研究组装的基因组和基于CRISPR/Cas9的无转基因基因组编辑策略为促进这一重要牧草作物科学研究和分子育种提供了重要基础。
背景
紫花苜蓿是一种多年生草本植物,至少自古希腊和罗马时代就开始种植。由于其高营养品质,高产和高适应性,它是世界上最重要的牧草种类之一。苜蓿作为主要饲料的蛋白来源,在80多个国家种植,覆盖面积超过3000万公顷。它是仅次于玉米,大豆和小麦的美国第三大价值的农作物(78–108亿美元)和第四大增长农作物(870万公顷)。在过去的50年中,畜牧业的快速增长也大大增加了发展中国家(例如中国)对苜蓿草料的需求。苜蓿种植除了具有很高的饲料价值外,对于适当改善部分地区的土壤质量也很重要。因此,苜蓿具有改善全球粮食安全的潜力,并且本身就是具有商业价值的作物。
然而,紫花苜蓿是具有四体遗传的自交不亲和的异花授粉四倍体(2n = 4×= 32)植物,其中二价配对是随机且非优先的,从而导致非常复杂的基因组,阻碍了对其进行破译和改善其特征。紫花苜蓿的遗传资源和基因组资源先前的探索主要取决于其近亲,已测序的二倍体蒺藜苜蓿(M. truncatula)(2n = 2×= 16 = 860 Mb)。但是,由于它们是不同的物种且具有不同的基因组,因此存在明显的局限性。同源多倍体基因组由于其亚基因组的高度相似性和基因组较大导致组装困难。迄今为止,仅报道了五个植物同源多倍体基因组。在这五种中,只有甘蔗(Saccharum spontaneum )基因组使用Hi-C数据从头装配到染色体水平。
如果可以将农业上有益的突变,特别是隐性突变轻松地纳入现代品种,则可以加快栽培苜蓿的改良。自然或诱变诱导的突变是随机发生的,效率低下,因此通过传统的表型选择获得同源四倍体和自身不相容的栽培苜蓿的突变体具有挑战性。然而,革命性的特定位点CRISPR / Cas9技术已成功应用于同时编辑多个等位基因并创建(精确且可预测地)各种多倍体植物的突变体,例如六倍体面包小麦和四倍体硬粒小麦,异源六倍体骆驼毛苜蓿和异源四倍体棉花。它还提供了一种可行的方法来避免将突变引入同源四倍体栽培的苜蓿的内在困难,但是以前没有报道使用CRISPR / Cas9或其他位点特异性核酸酶对该物种进行突变。
在这里,作者使用PacBio CCS(循环共有序列测序)和Hi-C(高通量染色体构象捕获)技术组装基因组。在此基础上,还开发了基于CRISPR / Cas9的基因编辑技术,并用于创建具有清晰表型的无效突变体。而且,突变的等位基因和表型可以以无转基因的方式稳定地遗传,这可以促进栽培苜蓿的商业育种。
结果
1. 装配和注释四倍体苜蓿
使用Sequel和HiSeq2000平台分别获得了70个Gb的PacBio CCS长reads和大约126 Gb的Illumina短reads。使用Canu软件包初步组装了紫花苜蓿基因组,N50值为459 Kb。该初始组装结果的总长度为3.15 Gb。将CCS长reads和Illumina短reads与初始装配比对,以检查杂合性和reads深度分布。注意到,大多数5 kb窗口(98.2%)不包含已识别的SNP,其余1.2%窗口的平均杂合度接近0.02%。基因组区域的reads深度分布也表现出相似的模式,即大多数区域的平均深度为22,只有3.2%的5 kb窗口的深度大于44。这些结果表明,最初的重叠群很好地解析了四倍体苜蓿的单倍型。
接下来,使用ALLHiC算法,该算法能够通过使用Hi-C配对末端reads构建等位基因,用于多倍体基因组的染色体级别的组装,通过整合12.77亿对Hi-C数据对来构建四倍体基因组。最终装配在32个superscaffolds中包含2.738 Gb,未定位的419 Mb,代表了所有32条染色体,包括8个同源组,每组中有4个等位基因染色体。
图1.苜蓿栽培基因组概述。这些圈的释义(从外向内):a LTR转座子的密度,b LINE转座子的密度,c SINE转座子的密度,d DNA转座子的密度,e基因密度,f基因表达水平,g 在chrX.1与chrX.2,chrX.3和chrX.4中的任意一个之间识别的共线性基因对的Ka / Ks,h在chrX.2和chrX.1,chrX.3和chrX.4中的一个之间识别出共线性基因对的Ka / Ks,i 在chrX.3和chrX.1,chrX.2和chrX.4中的一个之间识别出共线性基因对的Ka / Ks,j在chrX.4和chrX.1,chrX.2和chrX.3中的一个之间识别出共线性基因对的Ka / Ks。圆心中的线条连接了共线性区块,蓝带表示在chrX.1和chrX.2,chrX.3,chrX.4之间的共线性区块,绿色带表示在chrX.2和chrX.3,chrX.4之间的共线性区块,红色带 指示在chrX.3和chrX.4之间的共线性区块。
为了验证同源区段的的scaffolding,将组装的紫花苜蓿遗传连锁图谱映射到我们的组装结果,发现该遗传图谱支持染色体组装。研究者通过Hi-C进一步评估装配质量,绘制的Hi-C连锁表明染色体组是清晰的。测序产生了99 Gb ONT(牛津纳米孔技术)的长reads,平均reads长度为16 Kb。提取了前200个最长的ONTreads,范围从95到263 Kb,并映射到该组装结果,其中大多数(89%)可以映射到一条长度超过其自身长度80%的单个染色体,大多数染色体的相位正确。此外,四个单倍体基因组(每个由八个染色体组成)分别包含88.50%,88.30%,87.50%和87.20%的完整BUSCO基因,以及总共97.2%的完整BUSCO基因。另外,可以将超过90%的组装转录本定位到基因组。根据染色体水平的装配,通过搜索NR,GO,KEGG,Swiss-Prot和TrEMBL数据库,总共鉴定了164,632个蛋白质编码基因,并且对95.4%以上的基因进行了功能注释 。综上所述,这些结果证实了组织良好的等位染色体区分的染色体水平装配和基因注释。
图2等位基因染色体的组装及其相似性。
a组装染色体的Hi-C热图概述。每个等位群包含四个染色体,等位群之间几乎没有关联,表明高质量的染色体水平组装。
b以Chr1.1和chr1.2为例说明装配质量。Hi-C热图显示了染色体内的连续性和等位基因染色体之间的联系,深度显示了装配序列的均匀覆盖范围。在chr1.1和chr1.2之间显示出良好的共线性,并且通过Hi-C热图和共线性检测到两个反转。
2.CRISPR / Cas9基因组编辑系统的建立。
这项研究中获得的等位染色体区分的染色体水平栽培苜蓿基因组装配体为准确应用CRISPR / Cas9技术提供了一个必要的起点,以帮助筛选候选基因,解码基因结构信息和设计最佳指导序列,可以帮助将大量的基因组数据转换为功能相关的知识。构建了名为pMs-CRISPR / Cas9的植物转化二元载体(图3a),以使用根癌土壤杆菌稳定转化苜蓿品种。在该载体中,CaMV 35S启动子用于表达hSpCas933和选择标记基因潮霉素磷酸转移酶(Hpt),而MtU6聚合酶III启动子34用于驱动sgRNA的表达。
选择了番茄红素去饱和酶(PDS)基因作为该CRISPR / Cas9系统功效的首次测试,因为无效的pds突变体在幼年阶段通常具有清晰可见的白化和矮化表型。通过分析苜蓿基因组装配并手动检查,鉴定出四个几乎相同的MsPDS等位基因。选择位于MsPDS第2外显子保守区的引导序列(图3c),然后合成并整合到pMs-CRISPR / Cas9载体中。转化后,从880个转化的愈伤组织中再生了50株植物,其中两个(命名为mspds-4和mspds-5)表现出预期的白化和矮化表型(图3d)。首先,通过直接测序包含靶位点的PCR扩增子,对所有再生植物进行突变筛选,诱变频率定义为突变体数除以转化愈伤组织的总数。测序图谱表明五株植物是突变体(5 / 880,0.57%,命名为mspds1至5)。为了进一步确认CRISPR / Cas9诱导的mspds突变体并直接验证测序结果,对来自候选突变体的MsPDS的PCR扩增子进行了亚克隆,并随机测序了30个阳性重组克隆。这证实了所有五个筛选的突变体均在靶位点处突变了等位基因。mspds-1,mspds-2和mspds-3包含三个突变的等位基因和一个野生型等位基因,而mspds-4和mspds-5的所有四个等位基因均具有突变(0.23%)(图3e)。由于存在野生型MsPDS等位基因,mspds-1,mspds-2和mspds-3植物显示了野生型表型,而mspds-4和mspds-5植物显示了矮型和白化病表型。MsPDS的编辑结果表明,开发的CRISPR / Cas9系统可用于将突变引入栽培的苜蓿基因组。重要的是,可以在T0代中创建空突变体
图3 CRISPR / Cas9介导的四倍体栽培苜蓿的基因组编辑
a pMS-CRISPR / Cas9载体中Cas9和sgRNA表达盒的示意图(LB左边界,RB右边界,基因用矩形表示,启动子用箭头表示)。sgRNA由一个指导序列(蓝色圆角矩形)和一个支架组成,两个AarI限制性核酸内切酶位点(浅红色)之间的区域用于指导序列的连接。b用于根据栽培的苜蓿基因组设计指导序列的管道。c MsPDS的指导序列。深蓝色框和灰色线分别代表外显子和内含子。PAM以红色显示。d,e MsPDS的基因组编辑。d三种代表性MsPDS突变体(mspds-1,mspds-4和mspds-5)的照片,其中mspds-1表现出野生型表型,而mspds-4和mspds-5表现出矮化,白化病表型。比例尺,1厘米。e对所有筛选出的突变体进行测序,确认在目标位点处存在突变(浅蓝色)。PAM区域以黑色和小写字母显示。核苷酸的缺失,插入或取代以红色显示。
3.MsPALM1的无转基因Transgene-free 且稳定遗传的突变。
高叶/茎比是栽培苜蓿的重要农艺性状,因为它与苜蓿产品的营养价值呈正相关。培育每叶多叶的品种可以提高栽培苜蓿的叶/茎比,从而提高其产量和营养价值。在二倍体M. truncatula,PALM1编码Cys(2)His(2)锌指转录因子,在复合叶形态发生中起关键作用。空的palm1突变体会形成棕榈状的五叶形叶子,而不是野生型的三叶形叶子。因此,我们假设在种植的苜蓿中破坏PALM1直系同源基因(MsPALM1)可能使其表达palm1表型。这也将提供另一个易于观察的示例,以验证CRISPR / Cas9的稳定性及其在生成多叶品种中的潜力。鉴定出四个MsPALM1等位基因,发现所有MsPALM1拷贝均具有单个外显子。为了破坏MsPALM1,选择了一个特定的指导序列来指导Cas9破坏BstUI限制性核酸内切酶位点,从而能够通过PCR限制性酶(PCR-RE)分析轻松筛选突变体(图4a)。
总的来说,从1508个转化的愈伤组织中鉴定了26个突变体(占1.72%),其中包括12个棕榈1型植株(占0.80%),这些植物形成了棕榈状的五叶形叶子(图4b,c)。对每个突变体的20个克隆进行的Sanger测序证实了其基因组中至少存在一个突变的MsPALM1等位基因,并且在palm1型植物中所有四个等位基因均被破坏(图4d和补充图16)。值得注意的是,确定了三株palm1型植物(paT0-1,paT0-19和29)为嵌合突变体。尽管叶片的形态和测序结果(图4b,d)表明paT0-19中的所有四个MsPALM1等位基因均发生了突变,但在该突变体的PCR-RE分析中仍检测到了较弱的条带(图4c),表明野生型等位基因可能在其某些细胞中持续存在。此外,如在其他T0 CRISPR / Cas9编辑的植物中报道的,paT0-1和-29最多包含五种突变类型,表明它们的细胞基因型不一致。为了全面研究脱靶效应,使用IIlumina测序技术对3个palm1型突变体(paT0-1,paT0-19和paT0-46)的整个基因组进行了30倍深度重测序。对这些突变体的整个基因组进行全局扫描后,除目标区域外,在蛋白质编码区域中均未发现脱靶突变。这表明在我们高质量基因组的指导下,通过使用开发的基于CRISPR / Cas9的基因组编辑技术,可以大大消除突变栽培苜蓿的脱靶效应。
苜蓿的多倍体和异花授粉阻碍了苜蓿中农学上有益突变的稳定遗传。为了研究palm1型突变体的突变和表型是否可以传递给下一代,从paT0-19和paT0-46杂交中收获了T1种子。随机选择20个种子并将其播种在温室中,从中发芽的14株植物为palm1型植物(图4e)。PCR-RE和测序分析证实,这14个palm1型后代中的每一个均包含四个源自其父母的突变MsPALM1等位基因。具有野生型表型的六种植物中的每一种均具有至少一个未突变的等位基因(图4f,g),很可能是由paT0-19中的嵌合效应引起的。还使用两种对hSpCas9和Hpt有特异性的引物通过PCR分析检测到了无转基因植物。发现T-DNA片段在13个palm1型子代中不存在(图4h)。这些结果表明,基于CRISPR / Cas9的基因组编辑协议可以用无转基因的方式将可遗传的突变和表型迅速引入栽培苜蓿中。此外,这些无转基因的palm1型后代的产生表明,CRISPR / Cas9技术可能为育出具有更高营养价值的多叶品种提供了捷径,尽管需要进一步的研究来测试通过改善叶片生物量和饲料质量是否伴随着小叶数量的增加。
图4 MsPALM1的基因组编辑,并生成无转基因且稳定遗传的palm1型子代。
a MsPALM1序列。深蓝色框代表外显子, PAM以红色显示, BstUІ带有下划线并以浅蓝色显示。
b三种有代表性的T0植物的叶片形态,比例尺,1厘米。
c PCR-RE分析的结果,用于鉴定T0植物之间的突变体。在凝胶中,wt和wt-dg泳道分别包含来自野生型植物的DNA样品,这些样品未经过BstU 5限制性核酸内切酶消化和被BstU 4限制性内切酶消化。红色箭头表示用于识别突变的条带。值得注意的是,paT0-19(带有红色矩形突出显示)会产生暗淡的消化带(由白色箭头指示),尽管它会发育出掌状的五叶形叶子(b)。
d b中相应突变体的基因分型证实了靶位点处存在突变(浅蓝色)。PAM区域以黑色和小写字母显示。核苷酸的缺失,插入或取代以红色显示
e三株具有代表性的T1植株,其中两株表现出预期的palm1型叶片形态,如其亲本。比例尺,1厘米。
f,g PCR-RE分析(f)和测序分析(g)的结果证实了e中相应T1后代的亲本MsPALM1突变。
h f中20个相应的T1后代中无转基因突变体的测试结果。没有条带的泳道(由红色箭头指示)标识无转基因的突变体。标记为wt,paT0-19和paT0-46的泳道分别显示了从野生植物中扩增的PCR片段和两个T0突变体(paT0-19和paT0-46)。
总结
这项研究解析了我国地方特有品种“新疆大叶”紫花苜蓿的四倍体基因组,成功将四倍体基因组组装到了32条染色体上。并在此基础上,进一步开发了基于CRISPR/Cas9的高效的基因编辑技术体系,成功培育获得了一批多叶型紫花苜蓿新材料,其杂交后代表现出稳定的多叶型性状且不含转基因标记。该编辑技术在不导入外源基因的情况下,仅仅定点精准获得作物自身体内的突变体,与转基因截然不同,并能大大加快传统育种的速度。最重要的是,突变的等位基因和表型可以通过无转基因方式的两个突变体之间的异花传粉稳定地传递给后代,这可能有助于加快育种速度并减轻对转基因技术及其产品的担忧。结果也为进一步的技术发展提供了坚实的基础,例如精确的敲入,碱基编辑或表达调控。因此,它们有可能通过缩短繁殖期和改善这一重要作物关键农艺性状的成本来提高全球粮食安全。
小知识
1. 基因组已知的豆科植物
2. 紫花苜蓿和蒺藜苜蓿的区别
紫花苜蓿,拉丁文名:Medicago sativa,属多年生草本,种子卵形,长1-2.5毫米,平滑,黄色或棕色。花期5-7月,果期6-8月。是世界上最重要的牧草作物,被称为“牧草之王”。随着我国城乡居民生活水平的不断提高,对牛羊等草食动物的畜产品的消费需求不断增长,激增的家畜养殖对优质牧草,特别是紫花苜蓿的需求极大增加。然而,我国每年仅能生产200多万吨优质紫花苜蓿,距离500万吨的需求仍存在巨大缺口,长期以来高度依赖进口特别是从美国进口牧草,其中优质苜蓿占牧草进口总量的80%以上。此外,国内尚缺乏自主知识产权的优质紫花苜蓿品种资源,优质苜蓿种子大量依靠进口。由于紫花苜蓿同源四倍体和异花授粉特性,一直以来极大阻碍了其基因密码的破译和新品种培育。
蒺藜苜蓿,拉丁文Medicago truncatula,属一年生植物,因为其种子荚果螺旋紧密,具有硬刺,被称为蒺藜苜蓿(barrelmedic),也被称为截形苜蓿或者截叶苜蓿。蒺藜苜蓿起源于地中海,随着欧洲移民已经广泛地分布于世界上其它地区。根瘤圆形或扇形。花小,黄色,蝶形花,雄蕊9+1,自花受粉,花期30~40d。荚果紧密螺旋状,荚壳坚硬,外被脊刺,呈蒺藜状。每荚6~12粒种子。因为其倍性小(2n=16),基因组小(~5*108bp)、自花受粉及种子较多,被认为是研究豆科植物遗传学的模式植物。植株再生时间较短,有大量的突变体和多种生态型,具有较高的生物多样性。而且具有较高的遗传转化效率。与大部分豆科植物遗传相似性很高,从蒺藜苜蓿获得的信息可以用于其它豆科植物的研究。对蒺藜苜蓿的研究不仅可用于豆科植物生物学的研究,也将推动其它诸如人类营养、植物的病原反应、根系发育、共生互作、植物中碳、氮和磷的新陈代谢以及植物发育的激素控制和信号转导等方面的研究。
参考文献
相关阅读
2020 PBJ|关联分析和连锁分析解析玉米籽粒大小的遗传结构|群体遗传专题